Python爬虫系列-途家
作者:范凌
Python社区专栏作者 终身学习者。
简书ID:只是不在意
博客专栏:http://www.jianshu.com/u/b062b6eb573b
途家网不算很难爬,虽然它在同类网站中被我放到了最后。房间数用bs不算难取,而且城市列表也是用js很快就找到了。
这里就把新学到的两个知识点写一下:
首先是途家的js包有点怪,类似天气网的包,所以要用切片或者截取字符串的形式摘取字典。它的前面不但有var...等字符,最后还有一个分号,所以前后都要摘取。
这里我开始写的切片不对,请教yaung大神后应该是以下几种格式:
字符串格式,用replace语句
我后来改对的,用strip语句
切片格式:
我原来也是这种格式,但我犯了傻,一个个数字符,其实用len函数就好了嘛,而且也没有用‘-1’去把后面的分号去掉,所以改来改去都不对。
我是继续犯傻的分界线
然后把城市名调入网页url的格式,也还是没有掌握好,
一种是
这里我光是套入了{},忘了写format(明明以前的代码有示范),所以死活读不出来。
另外一个格式是用%s,这个书里有学,但还是不会活用。
打印url是为了:一般构造完以后,测试时候先把构造的url打印一下,再请求。如果url都没有构造对,封装函数也是解析不出数据的。-by程工
按理说 requests.get(url).content 方法是返回的byte型源码,可以不用decode('utf-8'),但我这里就会报错,不知道是不是跟后面的犯傻有关。
附上部分代码,其他请求头那些就不再写了。
今天其实还犯了第三件傻事,把一个很重要的json encoding文件删掉了。重装python以后也没找回来,pip安装都报错,最后装了anaconda搞掂。
希望明天人品好,不要在json上给我捣乱了,不然真的好花时间。
又学到了新的东西,还是挺高兴的~
Python爱好者社区历史文章大合集:
Python爱好者社区历史文章列表(每周append更新一次)
关注后在公众号内回复“课程”即可获取:
1.崔老师爬虫实战案例免费学习视频。
2.丘老师数据科学入门指导免费学习视频。
3.陈老师数据分析报告制作免费学习视频。
4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。
5.丘老师Python网络爬虫实战免费学习视频。